package Value类型

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object distinct {
    //数据会打乱重组，包含shuffle过程
    def main(args: Array[String]): Unit = {

        val config: SparkConf = new SparkConf().setMaster("local[*]").setAppName("WordCount")

        val sc = new SparkContext(config)

        val listRDD: RDD[Int] = sc.makeRDD(List(1, 1, 1, 1, 2, 3, 4, 5, 6, 7, 8, 9, 9, 9))

        val distinctRDD: RDD[Int] = listRDD.distinct(3)

        distinctRDD.collect().foreach(println)


    }

}
